N JAHA TIl 
f HHZTI 


(C hinmsAV nr 
| NAX IIVET FR 


a C | FAHT! 
第 39 卷 第 9 其 计算 机 应 用 研究 Vol. 49 No. 9 
录用 定稿 Application Research of Computers Accepted Paper 


基于 模仿 学 习 的 机 场 停机 位 再 分 配 决 策 算法 


邢 志 伟 '!， 张 前 前 '!， 罗 WU. BREM? 


(1. 中 国民 航 大 学 电子 信息 与 自动 化 学 院 ， 天 津 300300; 2. 中 国民 用 航空 局 第 二 研究 所 工程 技术 研究 中 心 , 成 都 
610041) 


摘 要 : 针对 机 位 再 分 配 算法 结果 难以 满足 不 同 操作 人 员 操 作 习 惯 的 问题 ， 提 出 一 种 符合 实际 业务 人 员 操 作 习 惯 
的 机 位 再 分 配 推荐 算法 。 首 先 以 航班 特征 属性 和 停机 位 的 资源 占用 状态 构建 决策 环境 空间 模型 ， 将 人 工 操作 数据 
转换 为 多 通道 时 空 矩 阵 ， 再 以 卷 积 神经 网 络 构建 的 生成 对 抗 网 络 (generative adversarial network，GAN) 拟 合 其 序 贯 
决策 操作 策略 。 仿 真 结果 表明 ， 可 靠 度 在 90% 以 上 的 调整 动作 占 比 最 高 达到 84.4%。 经 过 在 3 个 数据 集 上 的 测试 ， 
模型 对 不 同 来 源 的 操作 数据 具有 较 好 的 区 分 能 力 。 对 比 不同 扰 动 下 的 动态 调整 结果 ， 算 法 能 够 得 到 航班 -机 位 属性 
特征 与 原 有 人 工 操作 属性 特征 接近 的 调整 方案 。 
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Abstract: In order to solve the problem that the results of the gate reassignment algorithm can't meet habits of different 
operators, this paper proposed a method that accords with the actual operators' operating habits. Firstly, this paper established 
the spatial model of decision-making environment by using flights characteristics and occupancy of gate resources. The model 
transforms manual operating data into a multi-channel time-space matrix. Then, make use of CNN-based generative 
adversarial network to match the order decision-making operation strategy. The simulation results show that actions with 
reliability scores of more than 90% account for up to 84.4%. The model has a good ability to distinguish the operation data 
from 3 different operators. Compared with dynamic adjustment result under perturbance, this algorithm can obtain an 
adjustment scheme whose flight-gate attribute characteristics are closer to the original manual operation. 


Key words: air transportation; airport gate assignment; imitation learning; Markov decision process; generative adversarial 


network 
i= 0 ae 根据 上 述 的 研究 ， 既 有 的 机 位 分 配 算法 会 综合 考虑 航班 
D 靠 桥 率 、 鲁 棒 性 等 若干 复杂 多 样 的 优化 目标 ， 算 法 模型 构建 
停机 位 分 配 算法 是 辅助 机 场 调度 人 员 完 成 航班 停机 位 指 ” 过 程 中 往往 通过 人 为 权重 参数 分 配 或 优先 级 设 定 方式 平衡 各 
派 的 重要 技术 手段 ， 该 问题 作为 机 场 运 行 控 制 领域 重要 的 优化 目标 之 间 的 关系 以 进行 动态 规划 求解 。 然 而 实际 运用 中 
究 方向 持续 受到 关注 中。 对 于 大 量 优化 目标 或 约束 条 件 ， 业 务 人 员 很 难 主观 精确 量化 


现 有 的 停机 位 预 分 配 算法 研究 大 多 采用 动态 规划 的 思路 符合 机 场 实际 运行 目标 的 算法 参数 配置 ， 导 致 算法 计算 得 到 
进行 算法 建 模 握 ， 停 机 位 再 分 配 算法 通常 以 最 小 化 与 原 计 划 分 配 结果 后 仍然 需要 人 工 进行 核查 及 再 分 配 调整 。 

之 间 的 变化 为 优化 目标 B-9。DengDB] 通 过 遗传 - 蚁 群 混合 算法 模仿 学 习 (Imitation Learning，IL)， 也 称 为 示例 学 习 ， 
(genetic algorithm and ant colony optimization, GA-ACO) 最 小 通过 相对 简单 的 方法 模仿 某 种 行为 策略 作出 反映 。 它 从 数据 
化 乘客 、 机 场 和 航 司 的 经 济 损 失 。Zhang 欠 构建 机 位 再 分 配 集中 提取 有 用 的 知识 ， 在 类 似 于 演示 的 环境 中 重 现 其 行为 策 
网 络 流 模 型 并 通过 变 滚 动 层 位 算法 求解 。 姜 雨 四 等 在 对 航 和 以 实现 与 之 类 似 的 决策 方式 。 开 的 存在 有 助 于 自主 控制 
延误 后 实时 调度 问题 的 研究 中 考虑 到 延误 的 等 级 划分 ， 在 系统 的 研究 和 人 工 智 能 策略 模型 的 设计 ， 因 为 此 类 算法 在 现 
不 同 的 延误 严重 程度 下 ， 针 对 不 同 的 优化 目标 分 别 优化 ， 使 实 场景 中 表现 出 良好 的 前 景 和 策略 训练 的 效率 。 在 连续 控制 
用 非 支 配 排序 遗传 算法 求解 ， 得 到 差异 化 多 目标 机 位 分 配 模 领域 ， 模 仿 学 习 可 应 用 于 自主 车 辆 操纵 ， 以 在 动态 环境 中 再 
型 。Maharjanb 等 提出 了 一 种 基于 传统 确定 性 模型 的 机 位 动 现 适 当 的 鸭 驶 行为 0、 机 器 人 控制 号 1 芍 等 。 在 离散 控 竺 
态 分 配 模型 ， 建 立 了 最 小 化 旅客 的 传递 距离 的 二 次 整数 规划 领域 ， 模 仿 学 习 在 导航 任务 5~17 等 领域 作出 了 贡献 。 一 般 
模型 。 而 言 ， 算 法 采用 的 演示 数据 是 从 人 类 专家 或 人 工 代 理 与 环境 
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过 程 ， 以 消除 主观 经 验 与 参数 主观 设 


的 偏差 。 


BC 和 IRL 方法 使 用 不 同 的 方法 来 产生 专 id 为 。 一 般 而 言 ， "es l E : 
通过 IRL 构建 得 到 了 奖励 (成 本 ) 函 数 后 ， 需 要 进一步 采用 该 a INE NEN e ur | 
奖励 函数 代入 RL 中 得 到 被 学 习 的 专家 策略 ， 这 种 间接 的 。 cus à HH i 
方式 在 较 小 的 空间 中 求解 是 可 行 的 ， 而 当 环 境 空间 进一步 扩 1o à pamm; 
大 时 ， 将 会 面临 求解 成 本 高 昂 的 问题 。 而 行为 克隆 算法 直接 105 10 nm 2| n 
通过 专家 轨迹 数据 得 到 相应 的 策略 ， 但 该 算法 会 在 专家 轨迹 106 3 m 
未 出 现 的 状态 上 产生 偏 移 问题 ， 所 以 需要 大 量 的 训练 数据 ， 图 1 机 位 再 分 配 过 程 
不 适合 数据 获取 成 本 较 高 的 应 用 场景 。ASIL 最 初 产 生 于 Fig. 1 Process of gate reassignment 
Ho 和 Ermon 提出 的 GAIL 算法 08， 尽 管 ASIL 与 IRL 有 着 图 2 给 出 了 基于 FE-GAIL 的 停机 位 分 配 策略 学 习 算法 
密切 的 联系 ， 但 大 多 数 对 抗 性 结构 I 都 不 能 恢复 奖励 函数 。 流程 。 首 先 通过 航班 计划 表 和 停机 位 属性 构建 决策 环境 空间 
BC 通常 利用 在 环境 中 没有 交互 作用 的 专家 之 间 的 交互 作用 ， 之 后 设计 基于 该 决策 环境 空间 下 的 神经 网 络 用 以 决策 输出 。 
故 BC 的 计算 成 本 是 最 低 的 ，IRL 方法 通常 在 其 算法 内 环 中 下 
与 环境 有 着 较 多 的 交互 作用 ， 对 系统 动态 的 评估 使 IRL 计算 | Preeren BaRa | 
量 大 ; ASIL 方法 在 迭代 更 新 策略 参数 和 鉴别 器 参数 时 ， 还 ME | 
涉及 与 环境 的 频繁 交互 。 a I——1 | 
b umm 再 分 配 调 El 策 策略 ， 与 云 态 JEJE | i i . 
N 的 主观 设置 。 为 了 消 除 这 种 偏差 更 准确 地 刻画 人 工 的 决策 | mcr | a | 
C» 过程， 将 人 工 再 分 配 调 整 建 模 为 序 贯 决 策 问题 ， 提 出 了 一 种 | | amisi | 操作 数据 || 
CO ” 基于 特征 垦 入 的 生成 对 抗 模仿 学 习 方法 (feature embedding- ee | OO | 
C generative adversarial imitation learning，FE-GAIL) 的 停机 位 图 2 基于 FE-GAIL 的 停机 位 分 配 策略 学 习 算 法 
LO 再 分 配 决策 模型 ， 通 过 直接 学 习 人 工 操 作 数 据 ， 解 决 静态 参 Fig.2 Algorithm of gate reassignment based on FE-GAIL 
E 数 下 的 人 工 主 观 参 数 配置 不 准确 的 问题 1.2 决策 环境 空间 模型 
CN MER ee 为 更 好 地 描述 决策 环境 空间 模型 ， 首 先 定义 相关 概念 : 
> d) 定义 1 待 分 配 航班 {.， 指 当前 需要 被 调整 机 位 的 航班 
x 1.4 问题 描述 定义 2 动态 滑动 窗口 7,(min) : 指 再 分 配 过 程 中 划 定 需 
E E 机 场 通常 提前 一 天 获取 次 日 航班 时 刻 表 ， 经 过 机 位 分 配 ”要 考虑 的 时 间 范 围 的 窗口 。 停 机 位 的 再 分 配 问 题 中 可 调整 对 
Ps 算法 计算 得 到 的 预 分 配 计 划 以 甘 特 图 (图 1) 的 形式 呈现 。 在 象 一 般 为 落地 时 间 晚 于 待 分 配 航 班 f, 的 其 他 航班 ， 起 始点 是 
» 当天 实际 运行 时 ， 航 班 时 刻 变 化 可 能 导致 机 位 使 用 冲突 ， 算 待 分配 航 班 的 实际 落地 时 间 。 
(6 ”法 会 在 该 计划 上 进行 再 分 配 以 消解 冲突 。 GAIL 是 一 种 基于 马尔 可 夫 决 俩 过 程 (markov decision 
CS 航班 的 机 位 调整 在 同一 场景 下 往往 存在 多 种 可 行 解 。 如 process, MDP) 的 算法 ， 根 据 各 个 时 间 点 观察 环境 得 到 的 状态 ， 
c 图 1 所 示 ， 当 103 机 位 上 的 航班 5 发 生 延 误 时 ， 将 与 航班 6 选择 需要 执行 的 动作 ， 并 根据 环境 返回 值 循环 往复 得 到 执行 
O 产生 冲突 ， 需 要 将 航班 6 调整 至 其 他 机 位 。 图 中 四、@@ 和 @) ”动作 序列 。 机 位 再 分 配 调整 过 程 中 ， 交 互 环境 模型 以 及 状态 
分 别 代表 了 3 种 可 行 的 调整 方案 ， 传 统 多 目标 优化 的 算法 得 — 转移 概率 处 于 未 知 状 态 ， 随 参数 的 迭代 而 迭代 更 新 ， 故 将 
IRRD. MDP 描述 为 一 个 四 元 组 (S.A. R.y) 。 
经 过 对 机 场 操作 人 员 的 调研 ， 不 同 的 操作 人 员 对 传统 算 其 中 5 为 状态 空间 即 5={s1,52.…,5i,…} 。 表 示 某 一 时 刻 t 下 的 机 
法 中 配置 参数 方案 的 认 知 是 不 一 致 的 ， 这 导致 实际 业务 中 难 位 使 用 计划 的 特征 空间 描述 s 。 动 作 空 间 A 是 可 以 执行 的 动 
以 给 定 一 个 具有 广泛 适用 性 的 参数 配置 ， 算 法 输出 的 结果 E a 的 集合 ， 即 4={a,@,…,4…av} ， 其 中 a; RREA R 
不 同 的 操作 人 员 可 能 选择 不 同 的 推荐 方案 ， 甚 至 其 选择 并 非 待 分 配 航 班 f, 的 调整 至 机 位 i 。R 为 奖励 函数 ， 而 7 表示 学 
算法 输出 的 最 优 解 。 习 率 。 
例如 ， 设 103 机 位 为 远 机 位 ，101 机 位 为 廊 桥 ， 操 作 人 1.2.1 多 通道 机 位 状态 特征 矩阵 
员 1 倾向 于 调整 更 少 航班 数量 而 选择 了 方案 @， 而 操作 人 员 为 定义 机 位 状态 空间 s, ， 首 先 需 要 明确 机 位 分 配 的 决策 
2 倾向 于 更 高 廊 桥 靠 桥 率 选择 了 可 行 解 @)。 于 素 。 影 响 人 工 机 位 再 分 配 决策 的 因素 主要 包括 机 位 特征 
这 种 算法 计算 结果 和 员工 实际 行为 上 的 偏差 来 自 于 个 人 ”( 机 型 尺寸 属性 、 业 务 属 性 、 航 空 公司 属性 )、 航 班 特征 (机 
主观 经 验 与 参数 主观 设置 的 偏差 ， 传 统 的 多 目标 优化 算法 难 ” 型 尺寸 属性 、 业 务 属 性 、 航 空 公司 属性 )、 待 分 配 航 班 属性 
以 通过 参数 优化 设置 方式 消除 这 种 偏差 。 针 对 上 述 问题 , 通 。” ”( 同 航班 特征 ) 及 机 位 前 后 时 段 占用 状态 等 ， 因 此 本 文 建立 了 
过 在 多 目标 优化 过 程 中 引入 机 器 学 习 算 法 ， 实 现 主观 设置 参 。” 如 图 3 所 示 的 机 位 状态 环境 特征 模型 ， 将 动态 滑动 窗口 内 的 
数 的 偏差 纠正 。 再 分 配 过 程 中 ， 一 个 航班 机 位 的 人 工 调整 可 机 位 甘 特 图 映射 为 状态 特征 矩阵 。 
能 需要 多 个 航班 机 位 的 连锁 调整 以 得 到 可 行 解 ， 因 此 停机 位 3 左 侧 为 停机 位 占用 状态 的 甘 特 图 ， 其 中 每 行 对 应 于 
再 分 配 可 以 视 为 一 个 序 贯 决策 过 程 ， 针 对 序 贯 决策 的 策略 学 个 机 位 ， 每 列 对 应 于 一 个 时 间 块 。 右 侧 为 针对 停机 位 再 分 
习 问 题 通 常 采用 模仿 学 习 算 法 09。 其 中 生成 对 抗 模仿 学 习 配 中 特征 信息 提出 的 多 通道 机 位 状态 特征 矩阵 ， 其 中 每 个 通 
(Generative Adversarial Imitation Learning，GAIL) 算 法 主要 通 道 表 示 一 种 航班 属性 或 停机 位 属性 所 对 应 的 嵌入 编码 ， 有 具体 
过 示例 决策 轨迹 数据 学 习 其 中 的 决策 策略 ， 得 到 近似 于 示 候 的 编码 嵌入 方式 在 1.2.3 节 中 进一步 展开 叙述 。 
的 决策 策略 ， 在 自动 驾驶 等 序 贯 决策 场景 具有 较 好 的 状态 泛 假设 停机 位 总 数量 为 N， 为 了 减 小 状态 维度 ， 以 10 分 
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钟 为 一 个 时 间 块 ， 动 态 滑 动 窗口 中 需要 表征 的 时 间 块 数量 为 
元 =T,110 ， 故 占用 矩阵 每 个 通道 的 矩阵 维度 大 小 为 xN o 
机 位 必 性 特征 通道 
待 分 配 航班 属性 特征 通 首 
航班 属性 特征 AF 

n 

机 | 和 一 一 

位 

N 


动态 滑动 时 间 窗 24, (min) 


多 通道 状态 矩阵 


图 3 4 


道 机 位 占 


状态 矩阵 


Fig.3 Multi-Channels occupation state matrix 
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若 航班 上 停靠 于 机 位 1i 则 取 1， 反 之 取 0。 


根据 1.2.2 节 中 定义 的 属性 特征 ， 需 要 将 属性 值 对 应 成 
编码 的 形式 舱 入 到 机 位 占用 状态 矩阵 的 元 素 中 ， 即 特征 柑 入 


(Feature Embedding，FE)。 停 机 位 和 航班 的 相对 关系 与 电子 
游戏 中 的 地 图 与 可 操作 单位 的 相对 关系 具有 一 定 的 相似 性 ， 


Oriol VinyalsP29U 等 将 StarCraft II 中 的 小 地 图 信息 进行 基本 编 
码 ， 而 可 操作 单位 用 特征 向 量 进 行 表征 并 放置 于 地 图 中 ， 从 


而 得 到 信息 编码 后 的 完整 状态 。 
根据 上 述 特征 蔡 入 (FE) 方 式 ， 首 先 对 属性 值 进行 编码 。 
将 每 种 属性 值 单独 编码 成 为 一 个 通道 ， 以 机 型 尺寸 属性 为 例 ， 
机 型 尺寸 属性 特征 值 可 取 {4,8,C,D,E,f}， 按 照 等 间距 的 方式 
取 值 ， 若 机 位 在 某 一 时 间 块 被 机 型 尺寸 属性 为 的 飞机 占 
用 (属性 排序 为 全， 则 该 飞机 对 应 占用 的 时 间 块 的 属性 值 取 
4/6=0.67 。 
将 编码 后 的 属性 值 嵌 


fes 


入 到 状态 和 矩阵 中 。 航 班 第 "种 属 


航班 和 停机 位 的 特征 是 决定 航班 和 停机 位 匹配 关系 的 重 ”性 对 应 的 通道 中 第 上 个 航班 对 应 的 元 素 可 以 表示 如 下 ; 
要 因素 ， 表 1 给 出 了 部 分 典型 的 属性 特征 说 明 。 Xj = apk "O; (4 
del 属性 特征 表 (0<i<N,0<j<T,kerF) 
Tab.1 Attribute features list 根据 上 式 的 表述 ， 当 某 个 时 间 块 上 没有 航班 占用 ， 则 对 
属性 名 称 属性 值 属性 说 明 应 值 为 0， 反 之 则 为 属性 值 。 
机 型 尺寸 属性 A/B/C/D/E/F 航班 的 机 型 尺寸 不 得 超过 停机 位 尺寸 对 于 停机 位 属性 通 重 道 ， 则 无 须 表 征 占用 状态 特征 ， 第 4 
业务 属性 “国际 /国内 /地 区 国际 航班 应 停靠 在 国际 机 位 ， 国 内 亦 种 属性 对 应 的 通道 中 ， 第 i 个 停机 位 所 对 应 的 矩阵 元 素 表 示 
司 ， 部 分 远 机 位 无 限 币 为 如 下 形式 : 
航空 公司 属性 CA. CZ 等 ”航班 应 停靠 对 应 航 司 归属 停机 位 LI G) 
以 航班 -机 位 尺寸 匹配 属性 为 例 ， 传 统 的 停机 位 分 配 算 (QxisN,Ox jT) 
法 中 需要 人 工 设置 匹配 关系 的 优先 级 权重 表 ( 如 表 2 Bras), 完成 所 有 航班 的 属性 值 嵌 入 后 ， 最 终 得 到 该 属性 对 应 的 
以 尽 可 能 减少 小 飞机 占用 大 机 位 的 情况 。 为 了 避免 大 量 属性 ”矩阵 通道 如 图 4 所 示 ， 其 他 属性 对 应 的 矩阵 通道 的 构建 方式 
权重 值 的 人 为 给 定 ， 通 过 将 航班 和 停机 位 的 属性 以 特征 编码 同 理 。 
的 形式 建立 状态 特征 和 矩 阵 ， 其 权重 匹配 关系 不 显 性 地 体现 在 " á " tra fr 
算法 模型 中 ， 而 是 通过 神经 网 络 的 参数 表示 ， 再 通过 GAIL 
的 方式 进行 参数 学 习 。 81 0.67 | 0.67 | 0.67 Ms 0 0 
表 2 航班 -机 位 尺寸 匹配 权重 8 |_0 1 1 j| | d 0 
Tab.2 Flight-gate size matching weight 83 0 0.33 | 0.33 us 0 0 
飞机 \ 机 位 A 类 B% C% DŽ E% FÆ : : : : : : 
A% 100 80 60 40 20 10 £NA 0.17 0.17 0 Ves 0 0 
B 类 / 100 — 60 40 20 10 " 0 0 0 T 1 1 
C 类 / / 100 70 50 30 
D 类 / / / 100 80 60 图 4 状态 天 阵 中 机 型 尺寸 属性 通道 
E 类 / / / 100 80 Fig.4 Flight size attribute channel in the state matrix 
F 类 / / / / / 100 ye 
REISEN E. WRAK, AERIAL ” 2 模仿 学 习 算法 设计 
班 的 属性 以 向 量 的 形式 表示 为 模仿 学 习 是 一 种 基于 序 贯 决策 过 程 的 人 工 数 据 学 习 决 策 


x 


H apu o 的 机 型 
pal 表示 航空 司 属性 。 


Án 7 [a5 afaa] 


尺寸 属性 ， 


第 i A 性 向 量 表示 为 


S 


中 ow 表示 停机 位 i 机 位 尺寸 属性 ， 


Ag = [auis Gs2is 05] 


gli 


ax 表示 业务 属性 ， 


agzi 表示 业务 属性 , 


表示 航空 公司 属性 。 
1.2.3 属性 特征 的 编码 岁入 
于 航班 属性 特征 与 机 位 的 占用 情况 相关 ， 故 首先 定义 
机 位 的 占用 状态 特征 矩阵 。 设 图 3 中 停机 位 占用 状态 特征 
和 矩阵 表示 如 下 : 
x. ra G) 


E rp oy 6001 表示 第 ;个 机 位 在 第 7 个 时 间 块 上 的 决策 变量 


地 


策略 算法 (Feature Embedding-Generative Adversarial Imitation 
Learning，FE-GAIL)， 本 章 将 说 明 FE-GAIL 算 法 在 停机 位 再 
分 配 决策 场景 的 算法 设计 。 

按照 上 述 业 务 场景 的 建 模 ， 拟 采用 生成 对 抗 


模仿 学 习 


(GAIL) 求 解 机 位 再 分 配 策略 学 习 问 题 ， 为 了 便于 描述 数据 
的 特性 ， 在 说 明 算 法 流程 之 前 先 定义 相关 概念 5 用 度量 


P (occupancy measure). 


定义 3 占用 度量 p : 使 用 策略 7 时 在 环境 中 得 到 的 状 
态 -动作 对 (si,a) 的 分 布 ， 且 占用 度量 P 和 策略 7 之 间 存 在 唯 
一 的 对 应 关系 [3]; 


p. (S:a) = z(a|s,) 9, PCs, — s,| m) (6) 


其 中 ， zas) 和 PG, ssla 分 别 表示 动作 和 状态 的 边缘 分 布 。 


根据 上 述 定 义 可 知 ， 当 策略 与 人 工 停机 位 再 分 配 策略 的 占用 
度量 越 接近 时 ， 两 个 策略 之 间 越 相似 。 将 GAN 结合 到 正则 


优化 器 中， 将 优化 器 定义 为 
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q(p..pz)- 
maxmize > p, (s.a) In(D(s,a)) + 


i (7) 
Pz Gs. a)In(1 — D(s,a)) 


-maximize E, [In(D(s;.a))] - E,, [1 D(s;.a)] 


其 中 D 为 生成 对 抗 网 络 中 的 鉴别 器 。 生 成 器 元 生成 用 于 混 
清 鉴 别 器 D 的 样本 ,而 Dp 则 用 于 区 分 和 人 工 策略 样本 。 
将 策略 起 的 占用 度量 类 比 为 生成 器 生成 数据 的 概率 
分 布 ， 人 工 策略 类 推 。 此 概率 分 布 可 以 刻画 为 选择 状态 下 的 
动作 概率 分 布 向 量 v=[pa,poz… Pan] > Pa €00.1] ， 其 中 的 元 素 
为 在 给 定 状 态 下 各 动作 被 选择 概率 。 当 鉴别 器 D 无 法 区 分 
两 者 时 ， 认 为 具备 产生 与 人 工 样 本 相近 似 样本 的 能 
算法 流程 图 如 图 5 所 示 。 
停机 位 动态 调整 轨迹 数据 


到 港 离 洪 
| IRE | Cree 


特征 属性 嵌入 


多 通道 机 位 占 | 


生成 器 网 络 模型 


网 络 参 数 迭 代 更 
新 


动作 概率 分 布 


向 量 


鉴别 器 网 络 模型 


保存 决策 策略 
网 络 模型 


78 


图 5 FE-GAIL 算法 流程 
Fig.5 FE-GAIL algorithm flow chart 

基于 FE-GAIL 的 停机 位 再 分 配 决 策 算 法 的 基本 训练 流 

程 如 下 : 

Setpl 初始 化 生成 器 和 元 和 鉴别 器 的 网 络 参数 ， 设 置 训 
练 批量 大 小 ; 

Step2 将 人 工 停机 位 再 分 配 操作 数据 以 状态 -动作 对 
(s,,a) 进行 特征 嵌入 CE) 作为 生成 器 亏 的 输入 ， 得 到 选择 机 
位 的 动作 概率 分 布 向 量 v, 5 

Step3 按照 动作 概率 分 布 向 量 六 选择 机 位 ， 得 到 生成 器 
的 输出 Gan) ; 
Step4 将 人 工 停机 位 再 分 配 操作 数据 和 生成 器 产生 的 样 
本 同时 输入 鉴别 器 D 中 ， 得 到 的 鉴别 结果 根据 式 (7)， 利 用 
梯度 更 新 鉴别 器 D 和 生成 器 元 的 网 络 参 数 9 。 
通过 上 述 算法 ， 最 终 得 到 能 够 满足 需求 的 生成 器 过 和 
xd D ， 其 中 生成 器 即 为 策略 模型 ， 而 鉴别 器 将 在 3.3 节 
用 于 测试 模型 区 分 度 。 

3 ”实验 分 析 

本 章 将 通过 数据 实验 的 方式 证 明 根 据 停机 位 再 分 配 特 性 
提出 的 算法 可 以 学 习 到 人 工 再 分 配 决策 策略 。 下 文 将 首先 介 
绍 实验 所 用 的 数据 ， 将 通过 三 类 实验 对 比 IRL 和 BC 算法 ， 
验证 算法 的 性 能 。 
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3.1 实验 数据 
根据 1.1 节 可 知 ， 机 场 不 同 的 操作 人 员 具 有 各 自 不 同 的 
算法 调 参 策略 ， 即 对 统一 参数 有 不 同 的 参数 配置 方式 。 在 此 
假设 同一 员工 在 进行 行为 决策 时 始终 遵循 相同 的 行为 逻辑 ， 
利用 基于 A* 的 启发 式 搜索 算法 模拟 人 工 决策 过 程 ， 以 扩充 
原生 较 少 的 人 工 操 作 数 据 ， 生 成 足够 训练 算法 模型 的 行为 决 
策 数据 。 
A* 算 法 通过 判断 当前 位 置 与 起 点 之 间 的 距离 以 及 与 终 
点 之 间 的 预 估 代 价 来 求解 代价 最 小 的 可 行 解 ， 适 用 于 多 步 决 
策 下 的 最 优 决策 路 径 搜 索 问题 。 其 代价 预 估 函数 计算 式 如 下 : 
F(s)=G(s)+ H(s) (8) 
其 中 6G 为 当前 路 径 的 实际 代价 ， BO) 为 行为 预 估 代价 。 
对 于 第 i 个 停机 位 和 第 个 航班 ，G(s) 可 以 表示 如 下 : 
G(s) = &(Ag Au Apu) (9) 
其 中 ， Ar FI Aa 分别 为 由 式 (D) 和 (2) 得 到 的 航班 和 机 位 属性 ， 
Au 为 根据 表 2 的 形式 得 到 的 航班 -机 位 匹配 属性 。 
按照 上 述 权 重 计算 方式 ， 将 待 分 航班 可 选 机 位 作为 可 扩 
展 的 相 邻 节点 ， 通 过 路 径 搜索 的 方式 得 到 如 图 1 所 示 的 动 
态 调整 动作 序列 。 
实验 采用 国内 某 机 场 中 的 40 个 停机 位 ， 分 为 4 个 指 亡 ， 
共计 45700 余 条 原 计划 时 间 表 的 真实 数据 ， 如 表 3 所 示 。 
表 3 航班 -停机 位 原始 计划 表 
Tab. 3 Original schedule of flight-gates 


limi 


航空 公司 ”航班 属性 ”机 型 ”机 位 ”起 飞 时 间 ”落地 时 间 
1 国际 333 103 5/1902:34 5/18 23:30 
2 内 773 128 5/1910:47 5/1823:33 
3 f 321 101  5/19124 5/18 23:34 
4 f; 738 102 5/1978 5/18 23:52 


在 此 基础 上 对 航班 落地 和 起 飞 时 间 加 入 随机 扰动 ， 用 于 
模拟 机 场 发 生 延 误 时 的 实际 变动 情况 ， 再 利用 A* 算 法 模拟 
人 工分 配 的 决策 行为 ， 以 得 到 人 工分 配 操作 行为 轨迹 数据 。 
根据 历史 延误 信息 ， 将 航班 的 延误 分 布 情况 用 泊 松 分 布 描述 : 


Pace k)e e (10) 


其 中 上 为 延误 时 间 块 的 数量 。 定 义 航 班 f 与 停机 位 8g; 对 应 的 
权重 参数 集 W 如 下 所 示 。 
W -[Ag As, Apu] (11) 

根据 策略 不 变 假设 ， 对 于 员工 i 而 言 其 行为 参数 集 W 始 
终 保持 不 变 。 为 了 测试 模型 对 于 不 同 员工 行为 逻辑 的 学 习 能 
力 和 区 分 度 ， 本 文 设置 了 三 组 参数 集 W,ie{1,2,3} 以 模拟 三 种 
不 同 的 分 配 操 作 行为 逻辑 ， 利 用 上 述 的 A* 算 法 生成 三 组 数 
据 集 Di,ie{1,2,3} ， 每 组 数据 集 D 包括 训练 数据 10000 条 ， 测 
试 数据 2000 条 。 
3.2 ”模型 可 靠 度 结 果 分 析 

为 了 量化 训练 后 的 模型 分 配 结果 与 人 工 操 作 行为 的 一 致 
性 水 平 ， 根 据 2.1 节 中 的 动作 概率 分 布 癌 量 w ， 本 文 定义 归 
一 化 的 可 靠 度 评分 R 如 下 : 

1,if Pai Xp, > po. Dau E Vr > 
n=1ie[ll,N] (12) 


0 , otherwise 


1 M N 
R 229237 (13) 
其 中 M 为 每 次 测试 采样 的 样本 数量 ， N 为 停机 位 数量 ， wz 


为 人 工 操作 动作 。 

取 动 态 滑动 窗口 时 间 长 度 T. 为 300 分 钟 ， 对 应 的 时 间 
块 数量 为 30， 状 态 空 间 维度 为 40*30*9 。 训 练 过 程 中 每 训练 
100 次 作为 一 次 迭代 ， 并 进行 一 次 测试 ， 每 次 测试 采样 的 人 
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工 轨迹 样本 数量 为 1000， 设 置 学 习 率 Y=0001， 测 试 10 轮 得 


到 平 


Bü 
m xr 


均 可 靠 度 评分 的 变化 趋势 图 
表示 来 自 三 名 不 同 操作 


如 图 
FE 人 员 给 定 的 权重 参数 所 对 应 的 数 


6 所 示 ， 其 中 三 条 曲线 


进行 FE-GAIL 模型 训练 ， 图 中 纵 坐 标 为 训练 过 程 中 单 


MN 


AXES 
Z 


均 可 靠 度 评分 ， 横 坐标 为 经 


如 图 


6 所 示 ， 经 过 250 Uu 


HERRE 
Ug Ut ES Sh ol, EN 


试 集 测 试 模型 ， 每 次 测试 采样 的 样本 数量 为 200， 采 样 10 次 


得 到 的 测 


87.45% 和 


分 别提 升 9.16% 禾 


WARR 
表 4 所 示 ， 三 个 数据 全 


FEF 均 ， 得 到 平均 单 步 可 靠 度 评分 ， 结 果 如 
疼 下 模型 的 单 步 可 靠 度 评分 达到 89.30%、 
91.33%， 相 较 于 IRL 和 BC 算法 平均 可 靠 度 评分 
115.84%， 表 明 算 法 策略 能 够 收敛 于 与 被 学 


s A^ - y + 四 
习 的 人 工 策略 具有 较 低 的 偏差 的 结果 。 
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(b) D2 平均 可 靠 度 评分 
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图 6 不 同 数据 集 
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Fig.6 Average model training reliability score in different datasets 
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在 90% 以 上 的 步 数 的 
而 可 靠 度 评分 低 于 80% 的 


Rap u] 


2000 条 测试 样本 测试 可 靠 度 评 分 得 到 
靠 度 评 分 的 分 韦 FE 
5 比分 别 达 到 75.2%、72.6% 和 84.4%， 
区 间 包 含 步 数 的 占 比 13.85%、 


如 表 5 所 示 ， 可 靠 度 订 


分 


16.20% 和 7.20%， 说 明 人 工分 配方 案 在 本 模型 结果 中 保持 较 


高 的 可 靠 度 。 


表 4 平均 单 步 可 靠 度 评分 统计 
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Tab. 4 Average reliability score of single step 


D, D, D, Average 

FE-GAIL 89.30% 87.45% 91.33%% 88.38% 
IRL 78.37% 76.64% 82.61% 79.22% 
BC 73.35% 68.94% 74.83% 72.54% 


RS 单 步 可 靠 度 评分 分 布 


Tab.5 Single step reliability score distribution 


D, D, D, 
91956-10094 75.20% 72.60% 84.35% 
81%-90% 10.95% 11.20% 8.45% 
<80% 13.85% 16.20% 7.20% 
3.3 ”模型 区 分 度 结果 分 析 
不 同 策略 之 间 存 在 的 差异 将 导致 结果 之 间 存 在 差异 ， 为 


证 明 模 型 对 于 不 同 来 源 数据 的 区 分 度 ， 本 节 通 过 3 组 不 同 数 
分 别 代表 不 同 的 操作 策略 ， 测 试 模型 对 于 各 
个 数据 集 的 鉴别 效果 。 混 淆 矩阵 是 一 种 描述 评价 分 类 结果 错 
常用 方式 ， 其 中 根据 模型 结果 正确 与 否 和 实际 正 反例 
之 间 的 关系 ， 将 样本 分 为 四 个 类 别 TP、FN、FP、TN。 样 本 


据 集训 练 模型 ， 


BRN 


P 的 所 属 标签 类 别 co T EAE SE E A E FE E 
数据 集 D. 训练 得 到 的 模型 预测 样本 P 标签 值 在 采样 数据 中 
预测 标签 值 排 名 为 "， 即 : 


c, ZIP ,ifv»v, , peD, 
c,, NP , if v?v, , p £D; 


Vas 设 通过 


(14) 


PR 曲线 是 通过 计算 不 同 的 正 例 阔 值 下 的 精确 率 P 


(Precision) 4l £4 


式 如 下 : 


回 率 R (Recall) 得 到 变化 曲线 ， 两 者 的 计算 公 


TP 
7 Kia) 
Rose (16) 
TP + FN 


为 了 综合 考虑 精确 率 和 召回 率 ， 采 用 综合 度量 指标 F 度 


lim] 


量 值 来 评价 其 结果 ， 其 计算 公式 如 下 : 


F-27827P 
P+R 2TP+FN+FP 


区 分 度 测试 集 
分 别 采用 三 个 模型 对 样本 是 否 


据 集 进行 判别 ， 


含 全 部 三 组 数据 共 6000 个 样本 数据 ， 


(17) 


以 此 计算 混淆 矩阵 。 


自 于 该 模型 所 对 应 的 训练 数 
按照 10% 为 间隔 分 别 选 
取 不 同 的 阔 值 vw ， 根 据 不 同 模型 对 应 的 混淆 矩阵 ， 得 到 不 


同 训练 数据 集 下 FE-GAIL 模型 的 P-R 曲线 如 图 


7 所 示 ， 


中 被 标注 点 表示 各 个 模型 取 最 大 下 [BL 


集 下 本 模型 的 区 分 度 性 能 


响 小 。 
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图 7 不 同 数据 下 模型 PR 曲线 


Fig.7 PR curves of the models under different data 
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图 7 中 被 标注 的 三 个 点 为 模型 在 三 组 数据 下 的 最 大 下 值 ， 在 三 个 数据 集 下 ， 与 5% 参 数 设置 偏差 下 的 结果 相 比 ， 
其 值 如 表 6 所 示 ， 三 个 数据 集 的 下 值 分 别 为 0.7632、0.7892 ”模型 结果 中 Na 的 数量 较 少 ， 但 同时 N, 的 数量 也 较 少 ， 说 明 
和 0.8071， 说 明 模 型 对 不 同 来 源 数据 的 区 分 能 力 较 好 。 本 模型 的 分 配 结果 能 够 得 到 与 人 工 数据 属性 特征 更 为 接近 的 
6 不 同 数据 下 模型 的 F 值 结果 。 对 比 IRL 和 BC 算法 模型 ，FE-GAIL 算法 模型 在 不 同 
Tab.6 F values of the models under different data 数据 集 上 的 相似 度 评分 均 有 较为 明显 的 提升 。FE-GAIL 模 
D, D, D, 型 的 分 配 结果 的 相似 度 评 分 分 别 为 0.903、0.52、0.8565， 分 
FE-GAIL 0.7632 0.7892 0.8071 数 较 $% 参 数 设置 偏差 所 带 来 的 分 配 结果 仍 有 优势 ， 因 此 可 
IRL 0.6743 0.6912 0.6843 以 认为 本 算法 进行 参数 学 习 后 所 得 结果 同等 于 5% 人 工 参 数 

BC 0.5958 0.6191 0.6367 偏差 下 的 分 配 结果 。 


3.4 ”算法 同等 参数 误差 水 平分 析 "mp 
于 本 算法 是 通过 对 神经 网 络 进行 参数 学 习 的 方式 得 到 TOES 

与 人 工 决策 相 匹配 的 隐 性 参数 设置 ， 无 法 直接 和 人 工 参 数 配 针对 机 位 再 分 配 问题 特性 ， 提 出 了 基于 特征 嵌入 的 生成 
置 进行 相似 度 对 比 ， 因 此 将 通过 间接 实验 的 方式 测试 算法 同 。 对 抗 模仿 学 习 算 法 从 航班 的 机 位 再 分 配 操 作 数 据 中 学 习 其 对 
等 参数 误差 水 平 。 本 实验 中 对 三 个 数据 集 的 生成 过 程 加 入 一 ”应 的 操作 策略 的 方法 ， 用 以 解决 航班 延误 时 机 场 的 停机 位 动 
定 的 参数 误差 测试 参数 误差 下 的 分 配 结果 与 原始 分 配 结果 ” 态 调 整 问题 。 在 环境 建 模 的 过 程 中 加 入 特征 嵌入 的 表征 方式 
间 的 相似 度 ， 同 时 测试 通过 本 算法 进行 参数 学 习 所 得 的 分 配 。 提升 机 位 和 航班 属性 特性 可 读 性 ， 于 GAN 网 络 的 加 入 


T 


结果 与 原始 分 配 结果 的 相似 度 ， 以 获得 本 算法 分 配 结果 的 同 。 缓解 了 动态 环境 中 样本 效率 低下 的 问题 ,对 比 IRL fü BC 5€ 
等 参数 误差 水 平 。 法 在 停机 位 动态 分 配 策略 学 习 任 务 中 多 项 指标 均 有 较 明显 的 
定义 相似 度 评分 score 的 计算 公式 如 下 : 优势 。 对 多 组 不 同 的 机 场 调度 人 员 的 调度 策略 数据 进行 了 策 
dos, = AN, + Oa Nsa +N as (18) ” 略 学 习 ， 对 比 不 同 参数 误差 情况 下 与 原 有 操作 数据 之 间 的 差 
其 中 与 人 工 操作 行为 相 比 ， N 为 与 其 相同 的 动作 数量 ， Na 异 ， 证 明 通过 本 模型 得 到 的 结果 可 以 规避 5% 左 右 的 参数 设 
为 航班 、 机 位 属性 Ar 和 4 与 其 相同 的 动作 数量 ， Nas 为 航 。 ” 置 偏 差 。 本 文 研究 方向 为 停机 位 动态 分 配 ， 基 于 本 文 提 出 的 
班 、 机 位 属性 hr 和 4 与 其 不 同 的 动作 数量 ，aa、c,、% 分 ”FE-GAIL 算法 策略 模型 的 机 位 分 配 模型 输出 指派 方案 具有 
别 为 三 者 对 应 的 权重 参数 。 与 人 工 操作 方式 更 高 的 一 致 性 ， 可 减少 机 位 调度 操作 人 员 对 
表 7 为 三 个 数据 集 在 不 同 参数 误差 下 ， 生 成 的 新 数据 集 ”算法 推荐 方案 的 二 次 调整 ， 从 提升 算法 结果 的 实用 性 的 角度 
与 原 数 据 集 以 及 通过 原 数 据 训 练 的 模型 得 到 的 分 配 结果 之 间 ”提升 机 场 运 行 效率 。 
的 对 比 情况 。 前 在 被 模仿 策略 的 复杂 度 上 ， 算 法 还 有 进一步 的 提升 
表 7 不 同 参数 误差 的 数据 集 空间 ， 后 续 的 工作 中 可 以 加 强 算 法 对 更 为 接近 实际 操作 人 员 
Tab.7 Datasets of different parameter errors 操作 复杂 性 的 数据 进行 策略 拟 合 。 
数据 集 参数 集 误差 N, Ns Na; score 参考 文献 : 
5 10355 201 1444 0.7780 ii i 
10 9149 1088 1763 0.6185 [1] Pternea M. Optimal Reassignment of Flights to Gates Focusing on 
15 7007 2299 2694 0.1530 Transfer Passengers [D] , 2019. 
D 20 6730 2479 2791 0.1045 [2] Daş G S, Gzara F, Stützle T. A review on airport gate assignment 
i 25 6418 2768 2814 0.0930 problems: Single versus multi objective approaches [J]. Omega, 2020, 92: 
FE-GAIL 7097 3709 1194 0.9030 102146. 
IRL 6488 3344 2168 0.416 [3] Deng Wu, Li Bo, Zhao Huimin. Study on an Airport Gate Reassignment 
BC 5988 3246 2766 0.117 Method and Its Application [J]. Multidisciplinary Digital Publishing 
Institute, 2017, 9 (11): 258. 
数据 集 参数 集 误差 N, Ny Nar Quos [4] Zhang Dong, Klabjan D. Optimization for gate re-assignment [J]. 
2 9328 460 2212 0.3940 Transportation Research Part B, 2017, 95: 260-284. 
10 8227 1186 2587 0.2065 [5] Pternea M, Haghani A. Mathematical models for flight-to-gate 
15 7101 2260 2639 0.1805 reassignment with passenger flows: State-of-the-art comparative analysis, 
D 20 6749 2454 2797 0.1015 formu-lation improvement, and a new multidimensional assignment 
25 6445 2748 2807 0.0965 model [J]. Computers & Industrial Engineering, 2018, 123: 103-118. 
FE-GAIL 7663 2377 1960 0.5200 [6] Pternea M, Haghani A. An aircraft-to-gate reassignment framework for 
IRL 6925 2546 2529 0.2355 dealing with schedule disruptions [J]. Journal of Air Transport 
BC 6858 2287 2855 0.0725 Management, 2019, 78: 116-132. 
[7] Yu Chuhang, Zhang Dong, Lau HYKH. A heuristic approach for solving 
250458558 参数 集 误 差 N, Na Nay da an integrated gate reassignment and taxi scheduling problem [J]. Journal 
5 10524 154 1322 . 0.8390 of Air Transport Management, 2017, 62: 189-196. 
10 8732 1418 1850 . 0.5750 [S] ŽA, Jp 544, 童 楚 ， 刘 振 字 ， 陈 丽 丽 ， 张 洪 海 . 面向 航班 延误 的 停 
15 7058 2903 2039 0.4805 机 位 实时 指派 优化 模型 [J] 交通 运输 系统 工程 与 信息 , 2020, 20 
D, 20 6994 293] 2075 0.4625 (05): 185-190, 217. (Jiang Yu, Hu Zhitao, Tong Chu, et al An 
25 6638 3222 2140 0.4300 Optimization Model for Gate Re-assignment under Flight Delays [J]. 
FE-GAIL 7132 2981 1287 0.8565 Journal of Transportation Systems Engineering & Information 
IRL 6985 2687 2328 0.336 Technology, 20 (5): 185-190, 217.) 
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